#LLM as Judge

YL (Yucheng Liu)

5个月前

我们在 X BoostClub 尝试用「LLM as Judge」来自动化评估推文质量，结果发现一个有趣的现象：Gemini 模型极其厌恶“薅羊毛”、“白嫖”这类词，打分极低，尽管这些推文流量很高。而 Grok 就相对中立。🤖 AI 模型的“价值观”正在直接影响商业决策，这是模型对齐（Alignment）在现实世界最直接的体现。

Google Gemini 2.5发布引发AI模型性价比热议· 475 条信息

OpenAI新德里发布会：ChatGPT语音翻译功能引发热议· 869 条信息

#LLM as Judge #Gemini模型 #价值观影响 #模型对齐 #商业决策